百里路半九十,也就說今天完成四分之一了!﹝是這樣算嗎?﹞,最近加班成自然了﹝疑?﹞,也越來越晚睡了﹝就跟你說別打電動了!﹞
昨天把抓下來的資料整理過後,今天就要想辦法分析了!今天很認真的打了註解!是不是就能少打一些解說呢?
targetList = [ "a" ] #目標標籤
siteMap = []
for y in TagList :
#print( y[1] )
if y[0] in targetList : #尋找<a>標籤
Attr = y[1].split(" ") #分離屬性
for z in Attr:
IgCh = [ '"' , "'" ] #去除前後分號
if re.search( r'^href=' , z ):
if z[5] in IgCh: #判斷是否有分號
if z[6:-1] not in siteMap: #判斷是否重複
rehostUrl = "^" + hostUrl #判斷是否為同一個Domain #尚未判斷相對路徑
if re.search( hostUrl , z[6:-1] ):
siteMap.append( z[6:-1] )
else:
if z[5:] not in siteMap:
siteMap.append( z[5:] )
今天的進度看到很多層的 if 和 for ,證明我太懶了!該整理成函式了!
相對路徑的判斷還要再想一下,因為還有 #something 或是 javascript: void(0) 這種值要處理!
如果還要處理用 onclick 轉頁那就更複雜了!目前應該先不考慮...
以上,晚安!